FILTER MODE ACTIVE

#оценка ИИ

Найдено записей: 7

#оценка ИИ24.06.2025

Кризис оценки ИИ: почему старые тесты не работают и что будет дальше

Традиционные бенчмарки перестают адекватно отражать реальные способности ИИ. Появляются новые методы оценки, такие как LiveCodeBench Pro и Xbench, которые предлагают более точное измерение возможностей моделей.

#оценка ИИ17.05.2025

Microsoft и Salesforce выявили значительное падение эффективности LLM в реальных многошаговых диалогах

Новое исследование Microsoft и Salesforce показывает, что большие языковые модели теряют до 39% эффективности при обработке реальных многошаговых диалогов с неполными инструкциями, выявляя ключевую проблему разговорного ИИ.

#оценка ИИ13.05.2025

Исследователи представили General-Level и General-Bench для оценки истинной синергии в мультимодальном ИИ

Новое исследование представляет General-Level и General-Bench для оценки истинной синергии в мультимодальных моделях ИИ, показывая, что современные системы недостаточно интегрированы по задачам и модальностям.

#оценка ИИ12.05.2025

Почему AI-бенчмарки не отражают реальность и как оценивать ИИ по-настоящему

Традиционные AI-бенчмарки не учитывают сложности реального мира и человеческие ожидания. Новые методы оценки включают обратную связь с людьми, тесты на устойчивость и специализированные проверки для надежного ИИ.

#оценка ИИ25.04.2025

От демонстраций GenAI к надежному продакшену: значение структурированных рабочих процессов

Узнайте, почему структурированные и компонентные рабочие процессы необходимы для превращения генеративных ИИ-приложений из впечатляющих демонстраций в надежные и масштабируемые системы с измеримым бизнес-эффектом.